Введение в программирование на Triton: от элегантных операторов к параллелизму на основе блоков

Переход от режима Элегантного выполнения PyTorch к Triton требует смены подхода: вместо восприятия тензоров как монолитных объектов их следует рассматривать как совокупность дискретных, управляемых блоков или плиток.

1. Тензоры PyTorch и Triton

Очень важно различать тензоры Triton от тензоры PyTorch. Тензор PyTorch — это объект на стороне хоста на языке Python обёртка формы, типа данных, устройства, шагов и метаданных хранилища. В отличие от этого, Triton работает с сырыми указателями на данные внутри конкретных блоков памяти, что позволяет проводить оптимизацию на более низком уровне.

2. Бутылочное горло режима Элегантного выполнения

При стандартном режиме элегантного выполнения каждая операция (например, сложение, затем функция активации) требует отдельной загрузки ядра и обращения к глобальной памяти. Это основное бутылочное горло при современных вычислениях на видеокартах. Triton преодолевает это, путём объединения операций внутри одного ядра, которое обрабатывает блоки данных (например, 128, 256 или 512 элементов) непосредственно в памяти чипа.

3. Парадигма на основе блоков

Вместо скалярного мышления, характерного для потоков CUDA, Triton использует SPMD (единая программа, множество данных) на уровне блоков. Вы пишете одно ядро, и Triton запускает несколько экземпляров по всей сетке. Каждый экземпляр использует свой program_id для расчёта того, какой «кусок» памяти он владеет.

4. Настройка среды

Чтобы начать, установите Triton в чистой среде (с помощью Conda или venv), чтобы избежать конфликта зависимостей с существующими наборами инструментов CUDA: pip install triton.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary difference between a PyTorch tensor and a Triton tensor within a kernel?

Triton tensors contain Python metadata like strides; PyTorch tensors are raw pointers.

A PyTorch tensor is a host-side object wrapping metadata; a Triton tensor represents blocks of data processed at the compiler level.

There is no difference; they are the same object.

Triton tensors are stored on the CPU, while PyTorch tensors are on the GPU.

QUESTION 2

Why is 'Eager Mode' considered a bottleneck for modern GPU performance?

Because it uses too much CPU memory.

Every operation requires a separate kernel launch and a global memory round-trip.

It cannot handle floating-point numbers.

It lacks support for the Python language.

QUESTION 3

What is the result of installing Triton in a 'dirty' environment with conflicting CUDA toolkits?

Triton will automatically fix the CUDA path.

It may lead to library version mismatches and kernel compilation errors.

The GPU will run faster due to multiple toolkit options.

Triton does not use CUDA, so there is no conflict.

QUESTION 4

Draw the mapping from pid to index range for N=1000, BLOCK_SIZE=256.

pid 0: [0, 256); pid 1: [256, 512); pid 2: [512, 768); pid 3: [768, 1000)

pid 0: [0, 1000)

pid 0: [0, 256); pid 1: [257, 512); pid 2: [513, 768); pid 3: [769, 1000)

pid 1: [0, 256); pid 2: [256, 512); pid 3: [512, 768); pid 4: [768, 1000)

QUESTION 5

In block-based parallelism, the instruction shift moves from 'compute one element' to:

'Compute one entire tensor'.

'Compute one block of 128/256/512 elements'.

'Compute one scalar at a time'.

'Let the CPU handle the math'.